De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles
نویسندگان
چکیده
Résumé. Un des défis actuels dans le domaine de la classification supervisée de documents est de pouvoir produire un modèle fiable à partir d’un faible volume de données. Avec un volume conséquent de données, les classifieurs fournissent des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérations résistant à une diminution du volume de données. Leur efficacité, évaluée en utilisant des algorithmes de classification supervisés existants (Naive Bayes et Class-Feature-Centroid) sur deux corpus différents, est supérieure à celle des autres algorithmes lorsque le nombre de descripteurs diminue. Nous avons étudié en parallèle les paramètres influençant les différentes approches telles que le nombre de classes, de documents ou de descripteurs.
منابع مشابه
Bien cube, les données textuelles peuvent s'agréger !
Résumé. La masse des données aujourd’hui disponibles engendre des besoins croissants de méthodes décisionnelles adaptées aux données traitées. Ainsi, récemment de nouvelles approches fondées sur des cubes de textes sont apparues pour pouvoir analyser et extraire de la connaissance à partir de documents. L’originalité de ces cubes est d’étendre les approches traditionnelles des entrepôts et des ...
متن کاملCaractérisation automatique des classes découvertes en classification non supervisée
Résumé. Dans cet article, nous proposons une nouvelle approche de classification et de pondération des variables durant un processus d’apprentissage non supervisé. Cette approche est basée sur le modèle des cartes auto-organisatrices. L’apprentissage de ces cartes topologiques est combiné à un mécanisme d’estimation de pertinences des différentes variables sous forme de poids d’influence sur la...
متن کاملApprentissage artificiel : acquis, limites et enjeux
L’apprentissage artificiel est une activité circulaire, extrayant des connaissances à partir des observations disponibles et utilisant ces connaissances pour chercher de nouvelles informations, ou décrire différemment les observations. Dans cet article de synthèse, nous nous intéressons essentiellement à la construction de connaissances, règles ou modèles, à partir de données. Les acquis majeur...
متن کاملRegrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes
Résumé. Organiser les données textuelles et en tirer du sens est un défi majeur aujourd’hui. Ainsi, lorsque l’on souhaite analyser un débat en ligne ou un forum de discussion, on voudrait pouvoir rapidement voir quels sont les principaux thèmes abordés et la manière dont la discussion se structure autour d’eux. Pour cela, et parce que un même texte peut être associé à plusieurs thèmes, nous pro...
متن کامل